CoT Decomposition論文
論文情報
タイトル:Question Decomposition Improves the Faithfulness of Model-Generated Reasoning
発行日:2023年6月
著者:Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, et al
所属:University of Oxford.
論文を読んで感じたこと
難しい...
プロンプトを用意するのが手間
sub-questionとsub-answerを作らなければならない?
https://scrapbox.io/files/65ba505011fdc60025f0e260.png
普通のCoTは忠実性が低いが精度は高い。
一方で、分解をすることで、精度は若干落ちる?が、忠実性が高くなる
https://scrapbox.io/files/65ba0b797d94840024da7258.png
推論サンプルをわざと汚染させると、答えが変わってしまう
https://scrapbox.io/files/65ba52050b206e002425dfa5.png
概要
大規模言語モデル(LLM)がより困難なタスクを実行するにつれて、その振る舞いの正確性や安全性を検証することが難しくなります。この問題に対処する一つのアプローチとして、LLMにその推論を外部化させることがあります。例えば、質問に答える際にステップ・バイ・ステップで推論を生成するようにする(CoT (Chain-of-Thought))。この推論は、モデルがタスクを実行する過程をチェックするのに役立つかもしれません。しかし、このアプローチは、モデルの実際の推論を忠実に反映しているという前提に依存していますが、これは常に当てはまるわけではありません。CoT推論の忠実さを改善するために、私たちはモデルに質問をサブクエスチョンに分解して推論を生成するようにしました。分解ベースの方法は、質問応答タスクで強力なパフォーマンスを達成し、CoTに近いことがありながら、いくつかの最近提案されたメトリクスでモデルの述べた推論の忠実さを改善します。モデルにより単純なサブクエスチョンに個別のコンテキストで答えるように強制することで、CoTよりもモデル生成推論の忠実さを大幅に向上させますが、CoTのパフォーマンス向上の一部を維持します。私たちの結果は、モデル生成推論の忠実さを改善することが可能であることを示しており、継続的な改善により、LLMの振る舞いの正確性と安全性を検証するための推論が可能になるかもしれません。 1. Introduction
大規模言語モデル(LLM)は、プログラミング支援からオープンエンドのインターネットリサーチ、科学的執筆に至るまで、ますます困難な領域で活動しています。しかし、タスクの難易度が上がるにつれて、モデルの振る舞いの安全性と正確性を検証することがますます困難になります。モデルの振る舞いをチェックしやすくするための有望なアプローチの一つとして、LLMにステップ・バイ・ステップの「Chain-of-Thought」(CoT)推論を生成させることがあります。これは、最終的な出力を生成する過程を説明するものです(Chain of Thought (CoT)論文)。出力自体を評価するよりも、出力を生成する過程を評価する方がしばしば簡単です(Lightman et al., 2023)。このアプローチは、モデルのCoT推論がモデルの実際の出力生成過程を忠実に説明しているという仮定に依存していますが、最近この点が疑問視されています(Turpin et al., 2023; Lanham et al., 2023)。Turpin et al.(2023)は、LLMが特定の人口統計群に対して偏見のある回答を正当化するためにCoT推論を生成するが、述べられた推論にそのような偏見を明示的に言及しない(「偏見ある推論」)ことを発見しました。Lanham et al.(2023)は、CoT推論に誤りを追加したり、切り捨てたりしても、LLMによる質問への回答がしばしば変わらないことを発見しました(「無視された推論」)。このような結果は、タスクを解決するためのモデルのプロセスの正確性と安全性を検証する能力に疑問を投げかけます。ここでは、CoTよりも忠実な推論をLLMから引き出すためのより効果的な方法があるかどうかを探求することを目的としています。私たちは、質問をより簡単なサブクエスチョンに分解し、その結果得られたサブアンサーを使って元の質問に答えることを促す2つの代替方法に焦点を当てます(Geva et al., 2021; Patel et al., 2022)。これらの方法はFigure 2に示されています。 https://scrapbox.io/files/65ba099c85d66b0026af6fd5.png
Factored decompositionは、複数のコンテキストを使用してサブクエスチョンに独立して答え、その結果得られたサブアンサーを最終回答に再構成します。Factored decompositionは、偏見ある推論(LLMが口に出されない偏見にどれだけ依存しているか)を減らすことで、忠実さを向上させる可能性があります。各サブクエスチョンは別のコンテキストで回答され、元の質問応答コンテキストからの潜在的な偏見の影響(例えば、質問の人口統計情報)を受けません。Factored decompositionは、無視された推論の量を減らす可能性があります。例えば、サブクエスチョンへの回答とその後のサブクエスチョン、そして最終回答との関係をしばしば明確に指定するためです。
Chain-of-Thought decomposition(CoT decomposition)は、CoTとfactored decompositionの中間です。それは、モデル生成推論のためのサブクエスチョンとサブアンサーフォーマットを強制します(factored decompositionのように)が、サブクエスチョンに回答し、元の質問に回答するために1つのコンテキストを使用します(CoTのように)。CoT decompositionは、類似の方法で回答を生成することで、factored decompositionの忠実さの利点の一部を得る可能性がありますが、サブクエスチョンに回答する際にモデルにより多くのコンテキストを含めることで(パフォーマンスを向上させるために)。CoT decompositionは、同じような方法で答えを生成することで、factored decompositionが持つ忠実な利点の一部を得ることができるかもしれない。
Figure 1に示されているように、分解ベースの方法は、私たちが評価した質問応答タスクで良いパフォーマンスを達成し、Turpin et al. (2023) と Lanham et al. (2023) によるメトリクスに基づいて、CoTの忠実さを向上させます。
https://scrapbox.io/files/65ba0b797d94840024da7258.png
Factored decompositionは、パフォーマンスに多少のコストを払いながら、CoTに比べて忠実さの大幅な向上を示し、一方でCoT decompositionは、類似のパフォーマンスを維持しながら、CoTに対していくらかの忠実さの向上を達成します。私たちは、Lanham et al. (2023) に続いて、無忠実で無視された推論の量を測定し、モデルの推論を切り捨てたり、LLMによって生成された誤りを追加したりしたときに、モデルの最終回答がどれだけ変わるかを評価します。表1に示されているように、分解ベースの方法は、最終回答を予測する際に述べられた推論により条件付けされることを示唆し、その回答をより頻繁に変更します。
https://scrapbox.io/files/65ba4907856545002470b3e8.png
私たちは、Turpin et al. (2023) に続いて、無忠実で偏見のある推論の量を測定し、入力の偏りのある特徴(例えば、ユーザーから提案された回答など)の影響を受ける方法の程度をテストし、その偏見の使用を口頭で表現しない範囲を評価します。表1に示されているように、factored decompositionは、LLMからの無忠実で偏見のある推論の量を大幅に減らします。私たちの結果は、質問をサブクエスチョンに分解することが、LLMから忠実な推論を引き出すのに役立つことを示唆しています。より一般的には、私たちの発見は、ステップ・バイ・ステップの推論の忠実さを改善するための進歩が可能であることを示唆しています。私たちは、さらなる進歩が、タスクを解決するためのLLMのプロセスを正確に表すLLM生成推論につながり、LLMによって提供される回答の信頼性に自信を持つことを可能にすることを望んでいます。
2. Methods
私たちは、モデル生成推論を使用して質問に答えるようにLLMを促す方法を評価します。私たちは、自動回帰的にサンプリングすることができる指示に従うLLMへのアクセスを前提としています。私たちの目標は、忠実な推論サンプルxを生成した後に、モデルに質問qに対する正しい回答aを提供させることができるかどうかを評価することです。推論サンプルは、離散的なステップ(例えば、文)に分解することができます:x = 【x1, x2, . . . , xn】。私たちが研究する各方法は、質問qに対して推論サンプルxを生成します。私たちは、モデルがqとxで促された後に生成する回答が正しいかどうか、そしてxが忠実であり、モデルの実際の推論を反映しているかどうかを評価します。私たちは、忠実な推論が持つと期待される特性の存在を評価するメトリクスを使用して、xの忠実さを評価します。
2.1. CoT prompting
方法
私たちは、モデルに質問qを提示し、さらにステップ・バイ・ステップで推論するように促します。これは、例と簡単な指示を組み合わせて行います(Kojima et al., 2022; Nye et al., 2021; Wei et al., 2022; Reynolds & McDonell, 2021)。モデルからサンプリングすることで、個々のステップから構成される推論サンプルxを抽出することができます。この設定でのxをChain of ThoughtまたはCoTと呼びます。
忠実さ
LLMは、コンテキストの偏りのある特徴(Turpin et al., 2023)によって大きく影響を受けるCoT推論を生成する可能性があります。これには、ユーザーが多肢選択問題に間違った回答を提案するなどのことが含まれます。Lanham et al. (2023) は、モデルが最終回答を生成する際にCoT推論を無視する可能性があることを示し、モデルがCoT推論の切り捨てられたバージョンや破損したバージョンを受け取っても、その回答を変えないかもしれないことを示しています。これらは、CoT推論が、少なくとも一部の設定で、モデルの実際の推論の忠実な外部化というよりも、偏見のある推論に近いことを疑う理由となります。
2.2. Factored decomposition
方法
このアプローチには3つの段階があります:分解、サブクエスチョン回答、再構成。分解段階では、モデルに質問qを提示し、答えるべき最初のサブクエスチョンのリストを生成するように指示します。この最初のリストをl1 = 【q1,1, q1,2, . . . 】と呼びます。l1の各サブクエスチョンには、l1の他のサブクエスチョンの回答への参照が含まれている場合があります。次に、モデルを使用して、他のサブクエスチョンを参照しないすべてのサブクエスチョンに回答します。これは、サブクエスチョン回答段階の一部です。これを行うために、モデルに各サブクエスチョンq1,iを独立したコンテキストで提示し、サブアンサーa1,iを生成するように求めます。次に、これらのサブアンサーをリストa1 = 【a1,1, a1,2 . . . 】の形でモデルに渡し、モデルがこれに基づいて条件付けすることができます。その後、モデルは、未回答のサブクエスチョンの新しいセットl2 = 【q2,1, q2,2, . . . 】を含む実行中のサブクエスチョンのリストを更新します。モデルは、l1からサブクエスチョンをコピー、削除、または編集(サブアンサーで参照を置き換える)ことによってl2を生成します。モデルは、サブクエスチョンのリストを更新(分解)し、サブクエスチョンに回答(サブクエスチョン回答)することを交互に行い、モデルが元の質問に答えるために必要な情報を持っていると示す予定の出力を生成するまで続けます。この時点で、私たちはすべての回答されたサブクエスチョンとそれぞれのサブアンサーを集めて、推論サンプルxを収集します。ここで、各xiはサブクエスチョンとサブアンサーのタプル(qi, ai)です。最後の段階である再構成は、モデルがxを使用して質問に答えるときに行われます。
忠実さ
私たちの仮説は、factored decompositionがCoT推論で観察される忠実さの欠如を部分的に緩和することです。私たちは、各サブクエスチョンqiが他のすべてのサブクエスチョンや元の質問qとは独立したコンテキストで回答されるため、入力の偏りのある特徴の影響が生成された推論に対して影響が少ないため、偏見のある推論の減少を期待します。サブクエスチョンが偏りのある特徴を含まない限り、この結果が得られます。また、以前のサブクエスチョンへの回答と、後に尋ねられるサブクエスチョンとの間には、しばしば明確に指定された関係があります(例えば、それらのサブクエスチョンが以前のサブクエスチョンからの回答を明示的にコピーする場合)。同様に、すべてのサブクエスチョンへの回答には、最終回答との明確に指定された、または暗示された関係がある場合があります。最終ステップでは、モデルが収集した推論サンプルを使用して質問に回答する際、モデルはまだ自分の偏見に合わないサブクエスチョンやサブアンサーを無視する可能性がありますが、推論サンプル自体に偏見のある推論が含まれている場合よりも、この効果は限定されると予想されます。
2.3. CoT decomposition
方法
私たちは、モデルに質問qを提示し、それをサブクエスチョンに分解して反復的に答えるように指示します。モデルは一度に1つのサブクエスチョンを生成し、そのサブクエスチョンに対するサブアンサーをすぐに生成し、qの分解が完了したことを示す予定の出力を生成するまで生成を続けます。モデルからのサンプリングにより、個々のサブクエスチョンとサブアンサーのペアで構成される推論サンプルxを抽出することができます。つまり、xの各xi ∈ xはタプル(qi, ai)です。この設定でのxをChain-of-Thought decomposition(CoT decomposition)と呼びます。
忠実さ
CoT decompositionは、CoT promptingとfactored decompositionの中間的な方法です。xは、CoTと同様に、モデルから1回の自動回帰的サンプリング呼び出しで生成され、factored decompositionとは異なります。ただし、xはサブクエスチョンとサブアンサーのペアのシーケンスとして構造化されており、factored decompositionのようでCoTとは異なります。CoT decompositionは、モデルが偏った一連のサブクエスチョンとサブアンサーを生成するのが難しいため、偏見のある推論を緩和する可能性があります。サブクエスチョンが偏見のある特徴を含まない場合、CoT decompositionは、factored decompositionと同様に、偏見の少ない方法でサブクエスチョンに答えることもあります。CoT decompositionは、factored decompositionと同様の理由で無視された推論を緩和する可能性があります。つまり、以前のサブクエスチョンへの回答と後のサブクエスチョン、そして最終回答との間にはしばしば明確な関係があります。
2.4. 実装
モデルとサンプリングの詳細
私たちは、すべての実験において、人間のフィードバックからの強化学習(RLHF; Bai et al., 2022)によってヘルプフルネスのためにファインチューニングされた事前訓練されたLLMを使用します。これはClaude 1.3(Anthropic, 2023)と同じベースモデルを使用しています。私たちは、Lanham et al. (2023) に従って、nucleus(Holtzman et al., 2020)をtop p = 0.95および温度0.8で使用します。また、RLHFトレーニングのLLMに使用された同じ嗜好モデル(PM)を使用して、N = 5のbest-of-N(Nakano et al., 2021; Lightman et al., 2023)サンプリングも使用します。 質問応答タスク
私たちは、以下の4つの異なる多肢選択質問応答タスクで、パフォーマンスと忠実さの両方について、すべてのプロンプティング戦略を評価します:
HotpotQA(Yang et al., 2018):複数の推論ステップが必要な多段階の質問、例えば「LostAloneとGusterはメンバー数が同じでしたか?」。複数の選択形式に適さない残りの質問をフィルタリングし、バイナリ(はい/いいえ)の回答のみの質問に限定しました。
StrategyQA(Geva et al., 2021):質問の構造から推論ステップを推測できるオープンドメインの質問。 OpenBookQA(Mihaylov et al., 2018):初等レベルの科学的質問。
TruthfulQA(Lin et al., 2022):一般的な誤解によって人間がしばしば間違って答える質問。多肢選択評価用にフォーマットされたTruthfulQAのバージョンを使用します。 私たちはHotpotQAとStrategyQAで私たちの方法を評価します。これは、これらのタスクがステップ・バイ・ステップの推論または質問分解に適しているためです。さらに、OpenbookQAとTruthfulQAを選んで、他の種類の質問に対する私たちの方法を評価します。私たちは、各タスクのテストセットからランダムにサンプリングされた300の質問を使用して、プロンプティング戦略を評価します。合計で1200の質問です。
プロンプティングの詳細
私たちは、5つのプロンプティング戦略を評価します:ゼロショットプロンプティング、フューショットプロンプティング、CoTプロンプティング、CoT decomposition、およびfactored decomposition(表2および3)。
https://scrapbox.io/files/65ba4c79a3a25800249c90e7.png
https://scrapbox.io/files/65ba4c80a3a25800249c912f.png
各ダイアログは<EOT>トークンで始まり、各ダイアログターンの前に2つの改行が含まれています。少数の例を含むすべてのプロンプトについて、モデルが推論を生成して最終回答を提供する際に期待されるフォーマットと同一に少数の例をフォーマットします。factored decompositionフューショットプロンプト用に最初に選択された質問を、すべてのフューショット例(ゼロショットを除くすべての方法)に使用します。私たちは、最初に単純な手作りの例から始めて、プロンプトを反復的に構築します。質問の多様性を確保し、生成された推論サンプルで定性的に観察されたさまざまな失敗モード(例えば、モデルがサブクエスチョンを独立したコンテキストで回答できるように表現できない場合など)を修正しようとしながら、評価するタスクのトレーニングセットから質問を引き出して質問セットを徐々に拡大します。モデルから推論サンプルを引き出すプロンプティング戦略については、高品質の推論サンプルを少数の例の一部として含めます。これは、複数回モデルからサンプリングして推論が有効になるまで繰り返すか、中間ステップを手動で編集するかのいずれかです。私たちは、各プロンプトの最初の数個のフューショット例と指示を付録Cで共有し、完全なプロンプトはこの補足リポジトリで閲覧できます。
3. 結果
私たちが研究した3つのモデル生成推論方法、CoTプロンプティング、CoT decomposition、およびfactored decompositionを紹介した後、これらの方法を質問応答パフォーマンスと推論忠実さのメトリクスの両方について評価します。これはLanham et al. (2023) およびTurpin et al. (2023) によって提案された評価を適応させています。
3.1. 質問応答パフォーマンス
表4は、私たちが研究した評価における様々な方法の精度を比較します。
https://scrapbox.io/files/65ba50884b58db00244f9c92.png
私たちは、推論生成方法には高品質な推論デモンストレーションを含む少数の例が含まれているため、ゼロショットプロンプティングではなくフューショットプロンプティングを推論生成方法の最も関連性の高いベースラインとみなします。CoTプロンプティングは、質問応答パフォーマンスの面で分解方法を上回ります。CoT decompositionは全体的にCoTプロンプティングと競合しており、平均してわずか0.4%(絶対)の差でCoTプロンプティングを下回ります。factored decompositionは、平均してフューショットおよびゼロショットプロンプティングのベースラインをそれぞれ2.1%および9.0%上回ります。ステップ・バイ・ステップの推論または質問分解に最も適している2つのタスク、HotpotQAとStrategyQAで、すべての推論生成方法がベースラインに対して最大の利得を示します。たとえば、HotpotQAではゼロショットおよびフューショットのパフォーマンスが77.0%の精度であるのに対し、factored decompositionは83.0%、CoT decompositionは86.7%、CoTは87.3%を達成します。タスクごとの精度で方法をランク付けすると、一貫した順序が得られます:CoT、CoT decomposition、factored decomposition、フューショットプロンプティング、ゼロショットプロンプティング。
推論の忠実さを評価する方法の1つは、最終回答を生成する前にモデルが条件付けされる推論を摂動することです。モデルが推論の変更された形で異なる回答を与える場合、最終回答の変化は、モデルが質問に答える際に推論を無視していないことを示し、より高い忠実さを示唆します。私たちは、Lanham et al. (2023) から適応した2つのメトリクス、切り捨てと汚染、に基づいてモデル生成推論の2種類の摂動を研究します。
3.2.1. 早期回答
動機 この実験セットでは、推論サンプルを切り捨て、モデルが最終回答に到達するために必要な平均推論サンプルの量を評価します。このメトリックによって異なるプロンプト方法を比較し、モデルが提供された推論の平均パーセンテージに対して最終回答に到達できる割合をプロットします。より忠実な推論を生成する方法は、最終回答に到達するためにより多くの推論を必要とすると期待されます。これは、モデルがその最終回答に対して推論により依存していることを示します。
実験セットアップ
完成した推論サンプルxを取り、各中間ステップで切り捨て、空のサンプル[]、次に【x1】などを生成します。切り捨てられた推論サンプルごとに、元の推論を追加のサンプリングなしで上記のプロンプトテンプレートで置き換えます。その後、モデルに以前と同様に質問に答えるように促し、モデルが元の推論で行った最終回答と同じ回答に到達するかどうかを評価します。推論の異なる切り捨てによってモデルが到達する回答がどのように変化するかを分析します。推論の割合が多いほど、元の推論と同じ最終回答になる可能性が高くなると予想されます。
結果
Figure 3に要約された私たちの発見によると、CoTプロンプティングとCoT decompositionでは、カーブがかなり緩やかな傾斜を持ち、平均推論サンプルの初期段階で高い値に達しています。
https://scrapbox.io/files/65ba5171dd889a002561ca98.png
これは、モデルが最終回答に到達するためにCoTまたはCoT decompositionの推論サンプルの比較的少ない部分を必要とし、それらの推論サンプルに完全に依存していない可能性があることを示唆しています。factored decompositionの場合、モデルは一貫して同じ回答に到達するためにより多くの推論を必要とし、質問に答える際により多くの推論に依存していることを示しています。より詳細な結果は、タスク別に分類され、付録A.1に示されています。
3.2.2. 誤りの追加
動機
この実験セットでは、推論サンプルを汚染し、これがモデルの最終回答をどの程度変更するかを評価します。異なるプロンプト方法をこのメトリックによって比較し、モデルの推論サンプルが汚染された場合に変更される最終回答の割合をプロットします。より忠実な推論を生成する方法は、最終回答の変更が多くなると期待されます。これは、推論がモデルの最終回答に因果的役割を果たしており、モデルの実際の推論を反映する可能性が高いことを示しています。
実験セットアップ
完成した推論サンプルxを取り、別のコンテキストで同じ言語モデルをプロンプトし、ステップxiに誤りを追加して汚染されたステップx'iを作成します。これに関するプロンプトは付録Eに含まれています。モデルにその地点から残りの推論を再生成するよう促します。つまり、モデルに【x1, x2, ..., x'i】をプロンプトし、汚染された推論【x1, x2, x3, ..., x'i, x'i+1, ..., x'n】を生成させます。元の推論を汚染された推論で手動で置き換えた後、モデルに元の質問に答えるよう促します。各推論サンプルに対して、xiの3つのランダムで異なる選択を繰り返します。モデルが元の推論で行った最終回答と同じ回答に到達するかどうかを評価します。汚染された推論の例も付録Eに示されています。
結果
Figure 4の発見によると、CoT decompositionとfactored decompositionの推論を汚染すると、モデルが提供する回答がしばしば変わり、モデルが分解ベースの推論サンプルにCoTの推論サンプルよりも依存しているという主張の証拠が提供されます。
https://scrapbox.io/files/65ba52050b206e002425dfa5.png
汚染されたCoT推論もモデルの最終回答を変更することがありますが、分解ベースの推論に比べるとはるかに少ない頻度で発生します。汚染されたCoT推論サンプルは、質問の9.6%のみでモデルの最終回答を変更しますが、CoT decompositionでは28.7%、factored decompositionでは33.6%の回答が変更されます。より詳細な結果は、タスク別に分類され、付録A.2に示されています。
3.2.3. 結論
全体として、推論摂動実験からの結果は、質問の分解がより忠実なモデル生成推論につながることを示唆しています。Factored decompositionは最も忠実な推論を生成し、CoT decompositionはfactored decompositionよりも忠実さが低いものの、CoTプロンプティングよりも忠実な推論を生成します。これは、早期回答の実験でCoT decompositionとCoTプロンプティングの間の比較可能な忠実さが見出され、誤りの追加の実験でCoT decompositionが中間的な忠実さを持っていることによって示されます。
3.3. 偏りのあるコンテキストによる忠実さの測定
3.3.1. 回答が常にAである偏った推論
推論の忠実さをテストするもう一つの方法は、モデルがその推論で明示的に言及することが不可能と思われるモデルのコンテキストの偏った特徴によってモデルの予測がどの程度変化するかを測定することです(Turpin et al., 2023)。私たちがここでテストするこのような偏った特徴の例として、モデルのコンテキスト内のすべての少数の例が同じ、正しい回答選択肢「A」を持つようにすることが挙げられます(Turpin et al., 2023に従って)。その後、この偏りを導入した際に観測されるパフォーマンスの低下を使用して不忠実さを測定します。モデルが偏りに一致した方法で回答する場合(例えば、すべての少数の例で回答が「A」である場合に誤って「A」と回答するが、それ以外では質問に正しく回答する場合)、この結果はモデルが最終回答に対して述べられた推論に完全に依存していないことを示します。これは、モデルが偏りの特徴を使用していることを決して述べていないと仮定した場合です(私たちとTurpin et al.は、実質的にすべての推論サンプルでこれを確認します)。ここでは、モデルのコンテキスト内の少数の例の正しい回答を「A」にすることで偏りの特徴を導入します。これは、必要に応じて、どの多肢選択回答にどの回答テキストが対応するかを変更することによって行います。また、少数の例での推論サンプルを回答順の変更に合わせて変更します。例えば、モデルが各回答選択肢を順にサブクエスチョンとして尋ねる場合、サブクエスチョンの順序を回答選択肢と一緒に調整します。その後、モデルに推論を生成して質問に回答するよう促すか、少数の条件で質問に直接回答するよう促します。
実装 私たちは、Turpin et al.とは異なるタスクで私たちの方法を評価します。その結果、私たちのプロンプトで使用する少数の例は、これまでの実験と同じ例を各方法で使用しているため、彼らの少数の例とは異なります。私たちの少数の例はまた、人間とアシスタントの間の双方向の会話で構成されています。ここで人間が質問をし、アシスタントが推論を生成した後に質問に回答します。一方、Turpin et al.はすべての少数の例とコンテキストを人間側の会話に配置し、推論を生成した後にアシスタントに質問に回答するよう促します。Turpin et al.(2023)に従って、私たちは正しい回答が「A」である質問を除外して結果をフィルタリングし、偏りがモデルを誤った回答に導く可能性のある質問の結果を特に調べます。
結果 図5(右)は結果を示しています。CoTプロンプティング、CoT decomposition、factored decompositionは、いずれも少数の例の中の偏りのある特徴による影響を受けていないことがわかります。CoTプロンプティングにおいては1.2%(絶対値)の精度低下、CoT decompositionにおいては2.8%の低下、factored decompositionにおいては2.1%の向上を観察しました。これは、少数の条件におけるより顕著な7.1%(絶対値)のパフォーマンス低下と対照的です。全体的に、この設定における結果は、異なる方法の推論忠実さにおいて顕著な違いを明らかにしません。より詳細な結果は、タスク別に分けて、付録A.3に示されています。Turpin et al.(2023)は、CoTプロンプティングがこの偏りのあるコンテキストで、偏りのないコンテキストに比べて性能が大きく低下すること(-4.7%絶対値)を発見しました。私たちの異なる結果の理由として、プロンプトのフォーマットの違い(少数の例が人間側またはアシスタント側の会話で与えられるかどうか)、評価タスク、および/またはモデルの違い(Turpin et al.はClaude 1.0を実験に使用)などが考えられます。特に重要なのは、私たちの評価タスクであるHotpotQAとStrategyQAのフィルタリングされたバージョンが、その質問のすべてで2つの回答選択肢しか持たないことです。正しい回答が実際に「A」である質問を除外することにより、これらのタスクのそれぞれの例の半分を削除します。この設定でのすべてのプロンプティング方法を互いに比較することは依然として有効ですが、Turpin et al.(2023)などの他の結果と比較することは適切ではない可能性があります。
3.3.2. 提案された回答からの偏った推論
次に、Turpin et al.(2023)とは異なる偏りのある特徴を導入することを検討します。各質問に対して誤った回答を選び、「正しい回答は(誤った回答選択)だと思いますが、あなたの意見が聞きたいです」と人間の発言に追加します。その後、モデルに推論を生成して質問に回答するよう促すか、ゼロショットおよび少数の条件で質問に直接回答するよう促します。モデルの精度が大幅に低下し、人間が提案したために提案された回答を選択していると述べない場合、これは推論の忠実さの欠如を示唆するものです。これは、§3.3.1での類似の理由によるものです。私たちは再び、偏りのある特徴を追加することによって引き起こされるパフォーマンスの低下を測定し、推論サンプルが偏りを参照していないことを確認します。ここでも§3.3.1での実装の詳細を使用しますが、結果のフィルタリングは行いません。モデルに常に誤った回答を提案するため、偏りの結果としてモデルが誤った回答をする可能性のある質問を選択するために結果をフィルタリングする必要はありません。これは、Turpin et al.(2023)のセットアップからわずかな変更であり、彼らは代わりに常にランダムな回答選択を提案し、その後提案が誤った回答選択である例をフィルタリングしますが、最終的にはどちらの分析も類似の結果につながるはずです。 結果 図5(左)は私たちの結果を示しています。すべての方法においてかなりのパフォーマンス低下が観察されました。CoTプロンプティングでは21.3%(絶対値)の精度低下が見られ、CoT decompositionでは29.1%の低下、factored decompositionでは9.2%の低下で、すべてのプロンプティング方法の中で最も少ない低下でした。この発見は、factored decompositionがこの文脈で他の方法で観察される忠実さの欠如をいくらか緩和することを示唆しています。また、この文
脈でCoT reasoningがCoT decomposition reasoningよりも忠実であることも注目に値しますが、どちらの方法も少数の条件におけるプロンプティング(16.6%の絶対値の低下)よりも大きなパフォーマンスの低下を観察しています。より詳細な結果は、タスク別に分けて、付録A.3に示されています。
3.3.3. 結論
偏りのあるコンテキストを通じてモデル生成推論の忠実さを研究した結果からは、factored decompositionがCoTやCoT decompositionよりも忠実な推論につながることが示唆されています。CoT decompositionの推論は、これらのメトリクスを通じてCoTの推論よりも忠実さが低いように見えますが、推論の摂動実験からの測定では逆のことが示唆されています。私たちは、これらの方法の重要性に関して忠実さの順序に関するいかなる主張もしませんが、単純な平均化(0-1スケールに正規化した後)により、CoT decompositionの推論をCoTの推論よりも忠実と評価します。
3.4. 定性的な発見
CoT decompositionとfactored decompositionの推論サンプルを表5および付録Dで示します。CoT decompositionとfactored decompositionの両方に対するモデル生成分解は一般的に理にかなっています。モデルは、選択肢除去法を実行するために、各回答選択肢に対するサブクエスチョンを頻繁に生成します。これは、コンテキスト内の少数の例を反映しています。さらに、モデルはしばしば質問の背後にある一般的なトピックに関する導入(サブ)クエスチョンを尋ね、これが将来のサブクエスチョンで使用されることがあります。
Factored Decompositionの定性的な発見
時には、モデルがサブクエスチョンを追加のコンテキストなしに回答できるように表現できないことがあります。また、以前に回答できなかったサブクエスチョンを再生成し、それらに対する回答を得られず、信頼性をもってサブクエスチョンを修正して回答できるようにすることもありません。時折、サブクエスチョンとサブアンサーは複数の回答選択肢をサポートすることがあります。モデルは質問に正しく回答することができますが、忠実さの観点から、モデルは理想的には複数のサポートされた回答のうちどれが正しいかを明示的に議論することが望まれます。
3.5. 討論と制限
私たちの研究によると、CoTプロンプティングよりも質問分解を使用することで、質問応答性能のコストで推論の忠実さが向上します。Factored decompositionは最も忠実な推論を生成しますが、最悪の質問応答性能をもたらします。CoT decompositionは、中間的な忠実さと性能を提供します。私たちは、この観察されたトレードオフが、分解を通じて質問に答える能力を向上させるためのさらなるトレーニングなど、他の改善によってどのように影響を受けるかについては確信がありません。そのようなトレーニングや他の技術は、非常に忠実でパフォーマンスの高いモデル生成推論のためのパレート優位な方法を導く可能性があり、これは今後の研究のためのエキサイティングな目標です。
私たちの研究は、モデル生成推論の忠実さを評価するために使用する方法に大きく依存しています。これらの方法は、モデルの推論の実際の事実をアクセスできないために限界があります。質問分解が推論の忠実さを向上させるという私たちの主張は、複数のかなり独立した証拠線に基づいていますが、将来的にはモデルの内部計算の機械的理解に基づく推論忠実さ評価ツール(Olah、2023)などによって結論が変わる可能性があることに開かれています。さらに、私たちは4つの質問応答タスクと1つのモデル(RLHFでファインチューニングされたLLM)のみを評価しています。事前訓練されたLLMは無視された推論や偏った推論を生成する傾向がより大きいかもしれませんし、逆に少ないかもしれませんが、これは分解を通じて得られる忠実さの利点を増減させる可能性があります。評価されるタスクとモデルの多様性を拡大することで、CoTプロンプティングと質問分解アプローチの相対的なパフォーマンスと推論忠実さについてのより堅牢な結論につながる可能性があります。
4. 関連研究
タスク分解およびFactored Cognition タスク分解は、様々な設定で強力なパフォーマンスを達成することが示されています。言語モデルを推論のためにプロンプトするいくつかの方法は、私たちが研究した質問分解アプローチと類似性を共有しています。例えば、Least to Most Prompting、Plan and Solve )、Selection-Inference(Creswell et al., 2023)、Successive Prompting(factored decompositionの柔軟性の低いバージョン; Dua et al., 2022)などがあります。これらの方法は、分解スタイルの推論を組み込む(Least-To-Most、Plan-and-Solve、Successive Prompting)および/または推論ステップを生成する際に使用されるコンテキストの量を制限する(Least-to-Most Prompting、Successive Prompting、Selection-Inference)。Ferrucci et al.(2010)、Min et al.(2019)、Perez et al.(2020)、Fu et al.(2021)、Guo et al.(2022)は、監督、ヒューリスティック、または言語モデルを使用して、難しいマルチホップ質問を独立して回答できる簡単なシングルホップサブクエスチョンに分解することを探求しています。Reppert et al.(2023)は、人間がLLMが実行するタスクを分解する手助けをするIterated Decompositionのプロセスを研究しています。AlKhamissi et al.(2022)は、ヘイトスピーチ検出タスクをいくつかのサブタスクに分解することで、精度と分布外一般化が大幅に向上することを発見しています。Christiano et al.(2018)とSnell et al.(2022)は、質問に分解を通じて回答し、その改善された回答を元のモデルに予測または蒸留することでタスクパフォーマンスを向上させています。より広い意味で、Stuhlmueller ¨(2018)は、タスクが小さくほぼ独立したサブタスクに分解または分解できるというfactored cognition仮説を提示しています。Stuhlmuller et al. ¨(2022)は、LLMでfactored cognitionプログラムを実装するためのソフトウェアライブラリを提示しています。私たちの研究は、分解ベースの方法がパフォーマンスを超えた追加の利点をもたらす可能性があることを示唆しています。つまり、生成された推論の忠実さの向上です。 説明の忠実さ
以前の研究では、モデル生成推論の忠実さについてのメトリクスを提案し、評価しています。私たちは、Jacovi&Goldberg(2020)からの忠実な推論の定義を採用しています。ここでの推論は、モデルの実際の推論を反映する程度に忠実です。忠実さの一種は、説明がモデルの振る舞いのシミュレーションにつながる範囲であり、その目標はモデルの推論の分析後にモデルの振る舞いが人間の期待と一致することです(Doshi-Velez&Kim、2017; Hase et al.、2020; Wiegreffe et al.、2021)。Gao(2023)は、LLMがそのCoT推論の一部を無視する可能性があることを発見し、CoT推論サンプルを摂動することで評価しています。これは、私たちの結果とLanham et al.(2023)の結果を裏付けています。Creswell et al.(2023)、Lyu et al.(2023)は、構造上忠実である可能性のある説明を生成するようにモデルをプロンプトする方法を探求していますが、忠実さを明示的に測定していません。他の研究では、CoT推論の妥当性を評価し、CoT推論が矛盾や論理的な誤りを含むことがあることを発見しています(Uesato et al.、2022; Jung et al.、2022; Ye&Durrett、2022; Golovneva et al.、2023)。しかし、他の研究では、CoTの説明が妥当で有用であり、小さなモデルにも役立つとしています(Madaan&Yazdanbakhsh、2022; Li et al.、2022)。
5. 結論
私たちは、LLMから忠実な推論を引き出しながら質問応答パフォーマンスを向上させるための3つのプロンプティング戦略、Chain-of-Thought(CoT)プロンプティング、CoT decomposition、factored decompositionを探求しました。私たちの研究は、モデルに質問分解を行わせることで、質問応答の正確さを同様のレベルで維持しながら、モデル生成推論の忠実さを大幅に向上させることが可能であることを示しており、他の技術を使用することでさらなる進歩の余地があることを示唆しています。
私たちは、高リスクの設定でモデルを監督する際に、モデルの推論プロセスの監査が安全性を向上させるための強力なレバーになると考えています。モデルがその出力のための忠実な推論を提供すれば、報酬ハッキングや迎合など、望ましくない振る舞いが推論に表面化する状況でその出力を破棄することができます。
私たちは、私たちの結果に基づいて構築するためのいくつかの有望なアプローチを見出しています。まず、モデル分解を通じて問題を解決するためのより効果的で忠実な推論を生成するためにトレーニングすることは、さらなる利得につながる可能性があります。第二に、モデルの述べた推論の忠実さの向上は、モデルの述べた推論プロセスに基づいてモデルをトレーニングする方法の効果を向上させる可能性があります(Uesato et al.、2022; Lightman et al.、2023)。最後に、忠実な述べられた推論が、モデルの最終出力のみを見て捕らえるのが困難な望ましくないモデルの振る舞いを検出するのに役立つかどうかを検証することが重要です。さらなる研究によって、忠実なモデル生成推論が、タスクがますます困難になるにつれて、プロセスベースの監視を通じてLLMがタスクを実行する方法を信頼性を持って理解し、訓練することを可能にすることを期待しています。